AI safety
Mechanistic Interpretability for AI Safety -- A Review
大規模言語モデルにおける安全性の実現と方向性
Robust Intelligence
citadel AI
渋谷の牛タン屋で横にいたカップルとAI開発における演繹と帰納について
ChatGPT vs BERT:どちらが日本語をより理解できるのか?
オープンソースLLMの日本語評価結果 - W&Bローンチで誰でも再現可能に
lm-evaluation-harness
第95回 Machine Learning 15minutes! Hybrid 切り抜き
https://www.youtube.com/watch?v=w8M7DRVOR54
「AI Safety の必要性と具体的な攻撃、その対策について」松尾研 LLM コミュニティ "Paper & Hacks Vol.30"
https://www.youtube.com/watch?v=ji1G90kUel8
「AI Safety の必要性と具体的な攻撃、その対策について」
https://www.youtube.com/watch?v=ji1G90kUel8
HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection
LLM Guard - The Security Toolkit for LLM Interactions
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
GuardReasoner: Towards Reasoning-based LLM Safeguards
OpenAIのModeration APIを利用してAI彼女を性的被害から守る
NeMo Framework で実践する継続事前学習 – 日本語 LLM 編 –
COLING 2025 Tutorial: Safety Issues for Generative AI
AIセーフティ年次レポート2024
OpenAIのModeration API
OWASP(Open Web Application Security Project)について
Jailbreak で遊べるゲーム AILBREAK を開発しました
ASI existential risk: reconsidering alignment as a goal
Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment